Spark

Spark local模式連線叢集hdfs、hive

Spark提供了local、standalone、on yarn等多種執行模式,但為了保持開發環境與實際執行環境的一致性,通常都是在本地編寫程式碼,然後編譯並上傳jar包到Spark叢集除錯執行。 但是面對複雜

Spark學習——資料傾斜

資料傾斜是一種很常見的問題(依據二八定律),簡單來說,比方WordCount中某個Key對應的資料量非常大的話,就會產生資料傾斜,導致兩個後果: OOM(單或少數的節點); 拖慢整個Job

Apache Spark 記憶體管理詳解(下)

導讀:本文是續接上一篇《 Apache Spark記憶體管理詳解(上) 》(未閱讀的同學可以點選檢視)的內容,主要介紹兩部分:儲存記憶體管理,包含 RDD的持久化機制、RDD快取的過程、淘汰和

基於Spark的機器學習實踐 (七) - 迴歸演算法

0 相關原始碼 1 迴歸分析概述 1.1 迴歸分析介紹 ◆ 迴歸與分類類似,只不過迴歸的預測結果是 連續 的,而分類的預測結果是 離散 的 ◆ 如此,使得很多回歸與分類的模型可以經過改動

五糧液破百,白酒還能飛多高?

作者 | 飛鼠溪             資料支援 | 勾股大資料   1 從至暗時刻到白酒盛宴 這週四,白酒股再次大漲,更令人引目的自然是五糧液了,股價 突破100元 ,成為A股市

靠養牛起家的A股“殯葬第一股”

編者按:本文來自微信公眾號“ 電商線上 ”(ID:dianshangmj),作者:祝穎麗,編輯:屠雁飛,36氪經授權釋出。 草長鶯飛、萬物生長,既是踏青、郊遊的好時光,也是掃墓、祭祀的時節。 因為中國

1715995400.6565